查看原文
其他

达观数据陈运文:大语言模型与AIGC创新技术在文本处理领域的应用与思考 | 星科技•专精特新“小巨人”

联想之星 2023-10-20


前沿科技

 国家级

专精特新

“小巨人”



近日,在2023 DEMO WORLD企业开放式创新大会上,达观数据董事长、CEO陈运文带来了关于大语言模型与AIGC创新技术的洞见。他分享了达观数据在自然语言处理领域的经验和思考,以及如何利用自动化文本处理技术帮助企业实现数字化转型和科技创新。


主要观点如下:


1、达观数据专注于文本处理,提供智能解决方案助力企业数字化转型

2、达观数据量身定制知识库,助力”曹植“模型实现自动化任务


达观数据董事长、CEO陈运文


达观数据是一家为企业提供各类场景智能文本机器人的国家高新技术企业,利用先进的自然语言处理(NLP)、智能文档处理(IDP)、光学字符识别(OCR)、机器人流程自动化(RPA)、知识图谱等技术,为大型企业和政府机构提供文档智能审阅、办公流程自动化、文字识别、企业级垂直搜索、智能推荐等智能文本机器人产品,让计算机协助人工完成业务流程自动化,大幅度提高企业效率与智能化水平。


以下为陈运文演讲内容:


01

国产版大语言模型“曹植”


达观数据深耕文本处理领域,为更多企业提供高效、智能的文本处理解决方案,助力企业实现数字化转型和科技创新。随着企业数字化转型的推进,文档资料处理已经成为日常工作中不可或缺的一部分。


达观数据通过多年的研发,成功解决了文档资料复杂结构、多篇文档交互等问题,实现了对文档资料的自动化理解、分析和处理。此外,达观数据还与国内各大高校建立了联合实验室,共同探索最前沿的文档资料自动化处理技术。


ChatGPT近来备受瞩目,达观数据也于今年推出了国产版大语言模型“曹植”,该模型已经因其在文档资料写作和分析等任务上的高效表现而受到广泛瞩目。


“曹植”具有三个显著的特点:其一是处理长文本的能力,能够迅速完成包括报告、表格、单据等多种形式的庞大文档资料的写作和分析。这与传统的一问一答方式截然不同,使我们能够深入挖掘和处理这些丰富的信息资源。


其次,我们的系统具备多语言处理能力,可以实现英文报告到中文报告的快速转换,或者中文材料到英文的精准翻译,这种自动化的多语言处理无疑具有极大的价值。


最后,我们的垂直化特色在于专注于各行各业的专业报告处理,需要融入特定领域的知识语料、知识图谱和知识库。在这一领域,我们积累了丰富的经验和专业知识。


“曹植”大语言模型的独特之处在于将通用行业语料与垂直行业专业语料相结合,以使计算机系统既具备专业知识,又有通识能力。这使得它可以如同毕业生一样进入一个单位,不仅具备通用知识,还能学习公司和岗位的专业知识,从而完成高度专业化的工作。此外,该模型融合了传统技术和最新的GPT模型,充分利用各自的优势,以达到更出色的效果。


02

智能化文本处理技术

将有更广泛的应用


达观数据还为每家企业量身定制了专属知识库,让”曹植“学习这些知识库中的文档内容,以便自动完成一些任务。比如将系统嵌入到WPS Office中,可以自动完成报告写作、文件分析和审核,从而极大提高效率。我们的系统支持各行业的专业报告写作,未来预计将成为各个行业的效率提升工具



典型应用场景例如撰写报告。根据报告标题,AI系统能够自动生成报告大纲。一旦有了大纲,你可以在其基础上进行修改,确保其符合要求。然后可以根据大纲内容填充报告,满足写作要求。


同时这个系统还能够一键生成文章框架,自动编写内容,且没有篇幅限制。我们内置了各行各业的专业写作模型,生成的报告非常专业。这些工作原本需要专业团队数周时间才能完成,但现在计算机只需几分钟。


此外,报告还支持多模式内容,包括文字、表格、图表等,都可以通过AIGC技术自动生成。我们还实现了文档自动化翻译,与传统翻译有所不同,我们的翻译能够高度保真地还原文档版式。以报告/论文为例,系统能够将中文论文快速转化为英文论文,版式保持一致。这对于跨国企业和业务非常有益,节省了大量时间和精力,同时提高了准确性。


”曹植“大模型将实现了许多白领工作效率的有效提升。无论是起草报告、回答问题、审核材料还是核验信息,甚至是用自然语言提问,计算机都能以详实的方式进行回答。不管是自动化写作,还是能够生成图文并茂的报告,以及自动化翻译,实现高保真的版面还原。所有这些工作都将大幅度提升企业的工作效率,有助于未来企业实现降本增效及风险控制


总的来说,智能化文本处理技术未来有着广泛的应用。这一技术就像1000年前的活字印刷术一样,通过新的技术手段进行文字处理,从而带来效率的革命。我们相信这种技术将对每个企业、每个单位和每个人产生巨大影响,极大地提升社会运转的效率。达观数据正致力于这一目标,并期待与更多人合作,共同开创未来。


本文来源:创业邦



END



相关阅读




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存